Loading...
机构名称:
¥ 1.0

从神经活动重建自然语音对于实现脑机接口的直接通信至关重要。之前的研究探索了使用在大量神经记录数据上训练的复杂深度神经网络 (DNN) 模型将神经记录转换为语音,这在常规临床限制下是资源密集型的。然而,要从有限规模的神经记录中重建语音并取得令人满意的效果一直是一项挑战,这主要是由于语音表示的复杂性和神经数据的限制。为了克服这些挑战,我们提出了一种用于神经驱动语音重建的新型迁移学习框架,称为 Neural2Speech,它包含两个不同的训练阶段。首先,在现成的语音语料库上对语音自动编码器进行预训练,以从编码的语音表示中解码语音波形。其次,在小规模神经记录上训练一个轻量级适配器,以对齐神经活动和语音表示以进行解码。值得注意的是,我们提出的 Neural2Speech 证明了即使仅使用 20 分钟的颅内数据也能进行神经驱动语音重建的可行性,其在语音保真度和清晰度方面明显优于现有的基线方法。

arXiv:2310.04644v2 [cs.SD] 2024 年 1 月 31 日

arXiv:2310.04644v2 [cs.SD] 2024 年 1 月 31 日PDF文件第1页

arXiv:2310.04644v2 [cs.SD] 2024 年 1 月 31 日PDF文件第2页

arXiv:2310.04644v2 [cs.SD] 2024 年 1 月 31 日PDF文件第3页

arXiv:2310.04644v2 [cs.SD] 2024 年 1 月 31 日PDF文件第4页

arXiv:2310.04644v2 [cs.SD] 2024 年 1 月 31 日PDF文件第5页

相关文件推荐

2024 年
¥1.0